Turing test
研究目的:大規模言語モデル(LLM)が、標準的な三者間チューリングテストに合格できるかを検証
実験概要:
評価対象: ELIZA、GPT-4o、LLaMa-3.1-405B、GPT-4.5。
参加者は、5分間にわたり、同時に人間とAIの両方と会話。
会話後、どちらが人間かを判断。
実験は、ランダム化、対照、事前登録された手法で、独立した2つの集団(大学生とオンラインプラットフォームの参加者)を対象に実施。
主な結果:
GPT-4.5(人間らしいペルソナを付与)は、73%の確率で人間と誤認され、実際の人間参加者よりも高い評価を得た。 ELIZAとGPT-4oは、それぞれ23%と21%の確率で人間と誤認され、ランダム選択(50%)を大きく下回った。
https://youtu.be/PK7whePv5Gw?si=qzC2WJ7jc4jyg4bL